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(§) Verfahren zum Betrieb einer Datenverarbeitungseinrichtung 

(§7) Verfahren zum Betrieb einer Datenverarbeitungseinrich- 
tung mit programmier- und konfigurter barer Zellstruktur, 
wobei die Datenverarbeitungseinrichtung eine Zellmatrix aus 
einer Vtelzahl orthogonal zueinander angeordneter, homo- 
gen strukturierter Zellen, welche in ihrer Funktion und 
Vernetzung durch eine Ladelogik frei programmierbar sind, 
enthalt, dadurch gekennzeichnet, daS 

a) ein Konfigurationsprogramm, bestehend aus einer Folge 
von Ladelogik- Befeh Ion, die jeweils die Funktion und Vernet- 
zung der einzelnen Zelten angeben, so daS sich aus einer Teil 
folge eine spezietle Konfiguration mit spezieller(en) Anwen- 
dung(en) ergibt, vorhanden ist, auf das die Ladelogik (30) 
Zugriff hat (Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrt wird, 

b) zunachst durch eine bestimmte Anzahl von Ladefogik-Be- 
fehlen eine Konfiguration (Fig. 20b) mit spezielier(en) An- 
wendung(en), mittels.der Ladelogik (30) zu Beginn als 
Startkonfigu ration in der Zell-Metrix (Fig. 2, Fig. 3) einge- 
stellt wird, 

c) durch eine Statemachine (46) oder einen Komparator (48) 
die Beendigung der Durchfuhrung einer Anwendung einer 
oder mehrerer Zellen erkannt wird, 

d) durch die Erkennung eine RQckmeldung an die Ladelogik 
(30) erfolgt, die die Programmabarbeftung des Konfigura- 
tionsprogramms mit einer anderen Teilfolge (Fig. 21b, 
Fig. 22b) fortsetzt, welche nur Zellen umkonfiguriert, also 
neu erstellt, die die Durchfuhrung ihrer Funktion fur die 
aktuelle Anwendung bereits beendet haben oder nicht 
benotigt warden, so daS die Abarbeitung der Datenstrome 
der an der aktuellen Konfiguration noch beteiligten, parallel 
(z. B. Register 41, 42). oder gepipelined (z. B. Fig. 22a, 
Summierer 141 und Multiplizierer 149) arbeitenden Zellen, 
die sich noch in der Durchfuhrung ihrer Anwendung befin- 
den, nicht gestort wird. 
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Beschreibung 

Die vorliegende Erfindung bezieht sich auf Verfahren 
zum Betrieb einer Datenverarbeitungseinrichtung, d. h. 
einer Hardwareeinheit zur logischen und arithmeti- 5 
schen Manipulation (Verknupfung) von in binarer Form 
vorliegenden Daten (Informationen). 

Nach dem Stand der Technik sind gewohnliche Mi- 
kroprozessoren (z. B. Intel 80 x 86) bereits bekannt Die- 
se sind aus fest vorgegebenen Einheiten ausgestaltet 10 
und verarbeiten Programme durch das Auskodieren 
von Befehlen (Microcode) und dadurch bestimmte Regi- 
stermanipulationen. 

Ebenfalls bekannt sind sogenannte FPGAs (z. B. aus 
US-Patent 4,870302) die zum Aufbau von komplexen 15 
logischen Strukturen verwendet werden. Auf der 
Grundlage dieser Bausteine lassen sich Rechenwerke 
wie Addierer, Multiplizierer, eta innerhalb des Baustei- 
nes fur die Durchfuhrung einer .bestimrnten Funktion 
oder Aufgabe konfigurieren. Durch die direkte Imple- 20 
mentierung einer Funktion in die entsprechenden Lo- 
gikbausteine konnen FPGAs Funktionen oftmals 
schneller ausfuhren als Mikroprozessoren. Obwohl die 
bekannten Bausteine aufgrund ihrer SRAM-Architek- 
tur bereits umkonfiguriert werden konnen, existiert kein 25 
Mechanismus, urn die Umkonfiguralion schnell und dy- 
namisch wahrend der Laufzeit durchfuhren zu konnen, 
insbesondere, wenn nurTeilbereiche des Bausteines mit 
einer neuen Funktion konfiguriert werden sollen, wah- 
rend andere Teile des Bausteines ihre Aufgabe fortset- 30 
zen. Durch die fehlende Interaktion zwischen einer kon- 
figurierenden Einheit und dem FPGA an sich, scheiden 
die Bausteine als funktional vollwertiger Ersatz fur Mi- 
kroprozessoren aus. 

Die der vorliegenden Erfindung zugrunde liegende 35 
Aufgabe besteht darin, ein Verfahren zum Betrieb einer 
Datenverarbeitungseinrichtung mit programmierbarer 
und konfigurierbarer Zell-Struktur — wobei eine Zelle 
als ein logisches Schaltelement ahnlich US 4,870302 
(LE.) oder eine besonders ausgestaltete Recheneinheit 40 
(ALU) definiert ist — bereitzustellen, das eine hohere 
Parallelitat der Verarbeitung und eine flexiblere Verar- 
beitung von Daten gewabrleistet 

Dabei wird beschrieben, wie Bausteine, die aus einer 
Vielzahi von zwei- oder mehrdimensionalen Zellstruk- 45 
turen aufgebaut sind, schnell und effizient nach Ablauf 
eines Arbeitsschrittes oder Teilarbeitsschrittes, durch 
Interaktion zwischen dem Baustein und einer konfigu- 
rierenden Einheit, dynamisch neu konfiguriert werden, 
ohne EinfluB auf noch ablauf ende Arbeitsschritte zu ha- 50 
ben. Die Notwendigkeit einer Umkonfiguration, bzw. 
das Ende eines Arbeitsschrittes, kann gemaB dieses Ver- 
fahrens automatisch erkannt werden. Dadurch kann auf 
Grundlage dieses Verfahrens ein vollwertiger Ersatz fur 
Mikroprozessoren geschaffen werden. 55 

Ein Vorteil der vorliegenden Erfindung liegt darin, 
daB die beschriebene Methode eine uber einen weiten 
Raum skalierbare Parallelitat ermdglicht Hierbei wird 
eine Basis zum schnellen und flexiblen Aufbau von zum 
Beispiel neuronalen Strukturen geschaffen, wie sie bis 60 
dato lediglich mit erheblichem Aufwand durch Software 
simuliert werden konnen. 

Diese Aufgabe wird durch die im Patentanspruch I 
angegebenen Merkmale beziehungsweise Verfahren- 
schritte gelost Zur Verdeutlichurig der Verfahrens- 55 
schritte wird beispielsweise ein integrierter SchaJtkreis 
(Chip) mit einer Vielzahi insbesondere orthogonal zu- 
einander angeordneter Zellen mit je. einer Mehrzahl je- 
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weils logisch gleicher und strukturell identisch angeord- 
neter Zellen gezeigt, sowie dessen interne Busstruktur, 
die zur Erleichterung der Programmierung auBerst ho- 
mogen ist Grundsatzlich ist es denkbar innerhalb eines 
DatenfluBprozessors Zellen mit verschiedenen Zellogi- 
ken und Zellstrukturen unterzubringen, um so die Lei- 
stungsfahigkeit zu erhohen, indem zum Beispiel fur 
Speicheransteuerungen (Businterface) andere Zellen als 
fur arithmetische Operationen (Arithmetisch/logische 
Einheiten (ALUs) existieren. Insbesondere kann fur neu- 
ronal Netze eine gewisse Spezialisierung von Vorteil 
sein. Den Zellen ist eine Ladelogik zugeordnet, uber die 
die Zellen je fur sich und gegebenenfalls gruppenweise 
in sogenannte MACROS (Menge von Zellen, welche zu- 
sammen eine definierte Aufgabe losen) zusammenge- 
faBt so programmierbar sind, daB einerseits beliebige 
logische Funktionen, andererseits aber auch die Ver- 
knupfung der Zellen untereinander in weiten Bereichen 
verifizierbar sind. Dies wird erreicht indem jeder einzel- 
nen Zelle ein gewisser Speicherplatz zur Verfugung 
stent, in dem die Konfigurationsdaten abgelegt sind An- 
hand dieser Daten werden Multiplexer oder Transisto- 
ren in der Zelle beschaltet um die jeweilige Zellfunktion 
zu gewahrleisten (siehe Fig. 12). 

Mit anderen als im Patentanspruch 1 gebrauchten 
Worten besteht der Kern der vorliegenden Erfindung 
darin, eine Methode fur einen DatenfluBprozessor vor- 
zuschlagen, der zellular aufgebaut ist und dessen Zellen 
uber eine Ladelogik im arithmetisch-logischen Sinne 
quasi beliebig neu konfiguriert werden konnen. Dabei 
ist es von auBerster Notwendigkeit, daB die betreffen- 
den Zellen einzeln und ohne Beeinflussung der iibrigen 
Zellen oder gar einer Stillegung des gesamten Bausteins 
umkonfiguriert werden konnen. Ein DatenfluBprozes- 
sor gemaB dem vorliegenden Verfahren kann so wah- 
rend eines ersten Arbeitszyklusses als Addierer und 
wahrend eines spateren Arbeitszyklusses als Multipli- 
zierer "programmiertVgenutzt werden, wobei die An- 
zahl der fur die Addition beziehungsweise die Multipli- 
kation erforderlichen Zellen durchaus unterschiedlich 
sein konnen. Dabei bleibt die Plazierung der bereits 
geladenen und wahrend des Umladeprozesses nicht tan- 
gierten MACROs erhalten; der Ladelogik beziehungs- 
weise dem Compiler obliegt es, das neu zu ladende MA- 
CRO innerhalb der freien Zellen zu partitionieren (d. h. 
das zu ladende MACRO so zu zerlegen, daB es sich 
optimal einfugen laBt). Die Abiaufsteuerung des Pro- 
gramms wird dabei von der Ladelogik Qbernommen, 
indem sie gemaB dem momentan ausgefilhrten Pro- 
grammabschnitt die entsprechenden MACROs in den 
Baustein ladt, wobei der Ladevorgang von der spater 
beschriebenen Synchronisationslogik mitgesteuert 
wird, indem sie den Zeitpunkt des Umladens festlegt 
Daher entspricht ein DFP gemaB dem beschriebenem 
Verfahren nicht der bekannten von-Neumann-Archi- 
tektur, da die Daten- und Programmspeicher getrennt 
sind. Dies bedeutet jedoch gleichzeitig eine hdhere Si- 
cherheit, da fehlerhafte Programme keinen CODE, son- 
dem lediglich DATEN zerstoren konnen. 

Um dem DatenfluBprozessor eine arbeitsfahige 
Struktur zu geben, werden einige Zellen, und zwar unter 
anderem die Eingabe-/Ausgabefunktionen (I/O) und 
Speichermanagementfunktionen (I/O) vor dem Laden 
der Programme geladen und bleiben fur gewohnlich 
wahrend der gesamten Laufzeit konstant 

Dies ist erforderlich um den DatenfluBprozessor an 
seine Hardwareumgebung anzupassen. Die ubrigen Zel- 
len werden zu sogenannten MACROs zusammengefaBt 
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und konnen wahrend der Laufzeit nahezu beliebig und 
ohne Beeinflussung von Nachbarzellen oder anderen 
MACROs umkonfiguriert werden. Dazu sind die Zeilen 
einzeln und direkt adressierbar. 

Urn die Umstrukturierung (das Umladen/Umkonfigu- 
rieren) der Zeilen oder MACROs mit der Ladelogik zu 
synchronisieren, kann — wo notwendig, da nur Umgela- 
den werden darf, wenn die MACROs mit ihrer aJten 
Tatigkeit fertig sind — eine SynchronisationsschaJtung 
als MACRO auf dem DatenfluBprozessor unterge- 
bracht werden, die die entsprechenden Signale an die 
Ladelogik absendet. Hierzu kann eventueli eine Modifi- 
kation der gewohnlichen MACROs von Noten sein, da 
diese dann der Synchronisations-Schaltung Zustandsin- 
formationen zur Verfiigung stellen mussen. 

Diese Zustandsinformationen signalisieren der Syn- 
chronisationslogik fur gewohnlich, daB einzeine MA- 
CROs ihre Aufgabe erledigt haben, was aus program- 
miertechnischer Sicht zum Beispiel die Terminierung 
einer Prozedur oder das Erreichen der Terminierungs- 
bedingung einer Schleife bedeuten kann. D.h. das Pro- 
gramm wird an einer anderen SteUe fortgesetzt und die 
die Zustandsinformation absendenden MACROs kon- 
nen umgeladen werden. Zudem kann es von Interesse 
sein, daB die MACROs in einer bestimmten Reihenfolge 
umgeladen werden. Hierzu kann eine Wertung der ein- 
zelnen Zustandsinformationen durch eine Logik (zum 
Beispiel einen (Prioritats- Arbiter) erfolgen. Eine derarti- 
ge — einfache — Logik ist in Fig. 19 gezeichnet Die 



mit zwei Kaskadierungsmethoden denkbar: 

a) Niir die lokalen Verbindungen zwischen den Zei- 
len werden herausgefuhrt, was im vorliegenden 
5 Beispiel zwei IO-Pins pro Kantenzelle und vier 10- 
Pins pro Eckzelle bedeutet. Allerdings hat der 
Compiler/Programmierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefuhrt werden, 
wodurch die Kaskadierung nicht vollstandig homo- 
io gen ist (Globale Verbindungen zwischen mehreren 
Zeilen, fur gewdhnlich zwischen einer kompletten 
Zellenreihe oder -spake - siehe Fig. 1 - ; lokale 
Verbindungen existieren nur zwischen zwei Zeilen). 
Fig. 6a zeigt den moglichen Aufbau innerhalb eines 
is DFPs, Fig. 7a zeigt die daraus resultierende Kaska- 
dierung von mehreren DFPs (drei gezeichnet). 
b) Die lokalen und globalen Verbindungen werden 
herausgefuhrt, was die Anzahl der bendtigten Trei- 
ber/IO-Pins und Leitungen drastisch erhoht, in un- 
20 serem Beispiel (Fig. 6b) auf sechs IO-Pins pro Kan- 
tenzelle und zwolf IO-Pins pro Eckzelle. Dadurch 
ist eine vollstandige Homogenitat bei der Kaska- 
dierung gegeben (Fig. 7b). 

25 Da die globalen Verbindungen insbesondere bei Ver- 
wendung der Kaskadierungstechnik b) sehr lang wer- 
den konnen, kann der unangenehme Effekt auftreten, 
daB die Zahi der globalen Verbindungen nicht ausreicht, 
da bekanntlich jede Verbindung nur von einem Signal 



Logik besitzt sieben Eingangssignale durch die die sie- 30 genutzt werden kann. Um diesen Effekt zu minimieren, 



ben MACROs ihre Zustandsinformation abgeben. In 
diesem Fall soil 0 fur "in Arbeit" und I fur "fertig'' stehen. 
Die Logik besitzt drei Ausgangssignale, die an die Lade- 
logik gefiihrt werden, wobei der Zustand 000 als Ruhe- 
zustand gilt Liegt ein Signal an einem der sieben Ein- 
gange an, so findet eine Dezimal-Binar-Umsetzung 
statt, so wird zum Beispiel Sync6 als 1 10 dargestellt, was 
der Ladelogik anzeigt, daB das MACRO, welches Sync6 
bedient, seine Aufgabe beendet hat Liegen gleichzeitig 



kann nach einer gewissen Lange der globalen Verbin- 
dungen ein Treiber eingeschleift werden. Der Treiber 
hat zum einen eine Verstarkung des Signal s zur Aufga- 
be, die bei langen Strecken und entsprechend hohen 
35 Lasten, unbedingt erforderiich ist; zum anderen kann 
der Treiber in Tristate gehen und damit das Signal un- 
terbrechen. Dadurch konnen die Abschnitte links und 
rechts, beziehungsweise oberhalb und unterhalb des 
Treibers von verschiedenen Signalen genutzt werden, 



mehrere Zustandsinformationen am Eingang an, so gibt 40 sofern der Treiber in Tristate ist, ansonsten wird ein 

die Synchronisationsschaltung das Signal mit der hoch- Signal durchgeschleift Wichtig ist hierbei, daB die Trei- 

sten Prioritat an die Ladelogik weiter; liegen zum Bei- ber der einzelnen globalen Leitungen auch einzeln an- 

spiel SyncO, Sync4 und Sync6 an, so reicht die Synchro- gesteuert werden konnen, d. h. ein globales Signal kann 

nistaions-Schaltung zunachst Sync6 an die Ladelogik unterbrochen sein, das Nachbarsignal ist jedoch durch- 

weiter. Nachdem die entsprechenden MACROs umge- 45 geschleift Somit konnen auf einer globalen Verbindung 



laden sind und somit Sync6 nicht mehr anliegt wird 
Sync4 weitergeleitet usw. Zur Verdeutlichung dieses 
Prinzips kann zum Beispiel der Standard-TTL-Baustein 
74148 in Betracht gezogen werden. 

Ober die Ladelogik kann der DatenfluBprozessor je- 
weils optimal und gegebenenfalls dynamisch auf eine zu 
Iosende Aufgabe eingestellt werden. Damit ist zum Bei- 
spiel der groBe Vorteil verbunden, daB neue Normen 
oder dergleichen einzig und allein durch Umladen des 
DatenfluBprozessors umgesetzt werden konnen und 
nicht — wie bisher — einen Austausch mit entsprechen- 
dem Anfall von Elektronikschrott bedingen. 

Die DatenfluBprozessoren sind untereinander kaska- 
dierbar, was zu einer beinahe beliebigen Erhdhung des 



durchaus abschnittweise verschiedene Signale anliegen, 
wahrend die globale Nachbarverbindung tatsachlich 
global von ein und demselben Signal verwendet wird 
(vergleicheFig. 18). 
50 Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik konnen sogenannte 
Shared-Memories eingesetzt werden. So konnen zum 
Beispiel Programme von einer Festpiatte, die im IO- Be- 
reich eines DatenfluBprozessors liegt zur Ladelogik 
55 durchgereicht werden, indem die DatenfluBprozessoren 
die Daten von der Platte in den Shared- Memory schrei- 
ben und die Ladelogik sie dort abholt Dies ist besonders 
wichtig, da hier, wie bereits erwahnt, keine von- Neu- 
mann- sondern eine Harvardarchitektur vorliegt Eben- 



Parallelisierungsgrades, der Rechenleistung, sowie der eo so sind die Shared- Memories von Vorteil, wenn Kon- 



NetzgroBe in neuronalen Netzen fuhrt Besonders wich- 
tig ist hier eine klare homogene Verbindung der Zeilen 
mit den Ein-/Ausgangs-Pins (IO-Pins) der DatenfluB- 
prozessoren, um mdglichst keine Einschrankungen auf 
die Programme zu haben. 

In Fig. 4 ist zum Beispiel die Kaskadierung von vier 
DFPs gezeigt Sie erscheinen der Umgebung wie ein 
groBer homogener Baustein (Fig. 5). Prinzipiell sind da- 
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stanten, die im Programm — das im Speicherbereich der 
Ladelogik liegt — definiert sind, rnit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verkniipft werden sollen. 

Weiterbildungen der vorstehend definierten und um- 
schriebenen Erfindung sind Gegenstand der Unteran- 
spruche. 

Eine besondere Verwendung eines DatenfluBprozes- 
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sors gemaB dem beschriebenem Verfahrens ist darin zu 
sehen, daB er in Verbindung mit geeigneten Ein-/Ausga- 
be-Einheiten einerseits und einem Speicher andererseits 
die Basis fur einen kompletten (komplexen) Rechner 
bilden kann. Dabei kann ein GroBteil der IO-Funktio- 5 
nen als MACROs auf dem DatenfluBprozessor imple- 
mentiert werden und es brauchen momentan lediglich 
Spezialbausteine (Ethernet-Treiber, VRAMS. . .) extern 
zugefugt zu werden. Bei einer Normanderung oder Ver- 
besserung muB dann wie bereits angedeutet nur das 10 
MACRO softwareseitig angepaBt werden; ein Eingriff 
in die Hardware ist nicht notwendig. Es bietet sich hier 
an, einen IO-(Eingabe-/Ausgabe-) Stecker festzulegen, 
iiber welchen dann die Zusatzbausteine angeschlossen 
werden konnen. 15 

Fig. 16 zeigt den stark vereinfachten Aufbau eines 
heute iiblichen Rechners. Durch den Einsatz eines DFP- 
Bausteins konnen erhebliche Teile eingespart werden 
(Fig. 17), wobei die entsprechenden herkommlichen 
Baugruppen (CPU, Speicherverwaltung, SCSI-, Tasta- 20 
tur- und Videointerface, sowie der parallelen und seriel- 
Ien Schnittstellen) als MACROs in die kaskadierten 
DFPs abgelegt werden. Nur die durch einen DFP nicht 
nachbildbaren Teile wie Speicher und Leitungstreiber 
mit nicht TTL-Pegeln oder fur hohe Lasten mussen ex- 25 
tern zugeschaltet werden. Durch die Verwendung des 
DFPs ist eine gunstige Produktion gegeben, da ein und 
derselbe Baustein sehr haufig verwendet wird, das Lay- 
out der Platine ist durch die homogene Vemetzung ent- 
sprechend einfach. Zudem wird der Aufbau des Rech- 30 
ners durch die Ladelogik bestimmt, die hier fur gewohn- 
lich nur zu Beginn der Verarbeitung (nach einem Reset) 
das DFP- Array ladt, wodurch eine gunstige Fehlerkor- 
rektur- und Erweiterungsmoglichkeit gegeben ist Ein 
derartiger Rechner kann insbesondere mehrere ver- 35 
schiedene Rechnerstrukturen simulieren, indem einfach 
der Aufbau des zu simulierenden Rechners in das DFP- 
Array geladen wird. Zu bemerken ist, daB hierbei der 
DFP nicht in seiner Funktion als DFP arbeitet sondern 
lediglich ein hochkomplexes und frei programmierbares 40 
Zellarray zur Verfugung stellt, sich hierbei jedoch von 
herkommlichen Bausteinen in seiner besonderen guten 
Kaskadierbarkeit unterscheidet 

Ein weiteres Einsatzgebiet eines solchen Bausteins ist 
der Aufbau groBer neuronaler Netze. Sein besonderer 45 
Vorzug liegt hierbei in seiner hohen Gatterdichte, seiner 
ausgezeichneten Kaskadierbarkeit, sowie seiner Homo- 
genitat Ein Lernvorgang, der eine Anderung einzelner 
axiomatischer Verbindungen beziehungsweise einzel- 
ner Zellfunktionen beinhaltet ist auf iiblichen Baustei- 50 
nen ebenso schlecht durchfiihrbar, wie der Aufbau gro- 
Ber homogener und gleichzeitig flexibler Zellstrukturen. 
Die dynamische Umkonfigurierbarkeit ermdglicht erst- 
malig die optimale Simulation von Lernvorgangen. 

Die vorliegende Erfindung wird im folgenden anhand 55 
der weiteren Figuren naher erlautert Insgesamt zeigen 
Fig. 1 ein aus vier Zellen bestehendes unprogram- 
miertes SUBMACRO X (analog einem 1-Bit-Addierer 
gemaB Fig. 12 beziehungsweise Fig. 13) mit den erfor- 
derlichen Leitungsanschlussen; 60 

Fig. 2 einen Teilausschnitt eines integrierten Schalt- 
kreises (Chip) mit einer Vielzahi von Zellen und einem 
separierten SUBMACRO X gemaB Fig. 1 ; 

Fig. 3 einen integrierten Schaltkreis (Chip) mit einer 
Orthogonaistruktur einer quasi beliebigen Vielzahi von 65 
Zellen und einer extern zugeordneten Ladelogik; 

Fig. 4 die Kaskadierung von vier DFPs, wobei die 
Verbindung zwischen den 10- Pins nur schematisch dar- 
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gestellt sind (tatsachlich bedeutet eine gezeichnete Ver- 
bindung eine Mehrzahl von Leitungen); 

Fig. 5 die durch die Kaskadierung erreichte Homoge- 
nitat; 

Fig. 6a die Struktur der E/A- Zellen, wobei die globa- 
Ien Verbindungen nicht herausgefuhrt werden, 

Fig. 6b die Struktur der E/A-Zellen, jedoch mit her- 
ausgefuhrten globalen Verbindungen; 

Fig. 7a die aus Fig. 6a resultierende Kaskadierung, 
wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 
renden Treiberzellen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 4) gezeichnet sind; 

Fig. 7b die aus Fig. 6b resultierende Kaskadierung, 
wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 
renden Treiberzellen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 4) gezeichnet sind; 

Fig. 8 einen bei spiel haften Aufbau einer Zelle mit 
Multiplexern zur Auswahl der jeweiligen logischen Bau- 
steine; 

Fig. 9 ein Schaltsymbol fur einen 8-Bit-Addierer; 

Fig. 10 ein Schaltsymbol fur einen aus acht 1-Bit-Ad- 
dierern bestehenden 8-Bit-Addierer nach Fig. 9; 

Fig. 11 eine logische Struktur eines 1-Bit-Addierers 
entsprechend Fig. 10; 

Fig. 12 eine Zellenstruktur des 1-Bit-Addierers ent- 
sprechend Fig. 1 1 ; 

Fig. 13 einen der Zellenstruktur nach Fig. 9 entspre- 
chend aufgebauten 8-Bit-Addierer; 

Fig. 14 ein erstes Ausfuhrungsbeispiel einer Mehrzahl 
miteinander zu einem Rechenwerk gekoppelter inte- 
grierter Schaltkreise (DatenfluBprozessor) nach Fig. 3; 

Fig. 15 ein zweites Ausfuhrungsbeispiel einer Mehr- 
zahl miteinander zu einem Rechenwerk gekoppelter in- 
tegrierter Schaltkreise (DatenfluBprozessor) nach 
Fig. 3; 

Fig. 16 den stark schematisierten Aufbau eines her- 
kommlichen Rechners; 

Fig. 17 den moglichen Aufbau desselben Rechners 
mit Hilfe eines Arrays aus kaskadierten DFPs; 

Fig. 18 einen Ausschnitt mit eingezeichneten (Lei- 
tungs-)Treibern eines DFPs. 

Fig. 19 eine zum Beispiel mit einem Standard-TTL- 
Baustein 74148 ausgefuhrte Synchronisationslogik; 

Fig. 20a, b, c ein Ausfuhrungsbeispiel eines MACRO 
zur Addition zweier Zahlenreihen; 

Fig. 21a eine Multiplikationsschaitung (vergleiche 
Fig. 20); 

Fig. 21b die interne Struktur des DFPs nach dem La- 
den (vergleiche Fig. 20b); 

Fig. 21c die Arbeitsweise des DFPs im Speicher, so- 
wie die Zustande der Zahler 47,49; 

Fig. 22a, b, c eine Kaskadenschaltung, wobei der Ad- 
dierer aus Fig. 20 und der Multiplizierer aus Fig. 21 zur 
Steigerung der Rechenleistung hintereinander geschal- 
tet sind; 

In Fig. 9 ist ein Schaltsymbol eines 8-Bit-Addierers dar- 
gestellt Das Schaltsymbol besteht aus einem quadrati- 
schen Baustein 1 mit acht Eingangen A 0. ..7 fur ein 
erstes Datenwort A und acht Eingangen B 0. . .7 fur ein 
zweites (zu addierendes) Datenwort B. Die jeweils acht 
Eingange Ai, Bi (i = 0. . .7) werden erganzt durch einen 
weiteren Eingang Oein iiber den dem Baustein 1 gege- 
benenfalls ein Obertrag zugeleitet wird Der Baustein 1 
hat funktions- und bestimmungsgemaB acht Ausgange S 
0. . .7 fur binaren Summanden und einen weiteren Aus- 
gang Oaus fur den gegebenenfalls bestehenden Ober- 
trag. 

Das in Fig. 9 dargestellte Schaltsymbol ist in Fig. 10 
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als Anordnung sogenannter SUBMACROS dargestellt 
Diese SUBMACROS 2 bestehen je aus einem 1-Bit-Ad- 
dierer 3 mit je einem Eingang fur die entsprechenden 
Bits des Datenworts und einem weiteren Eingang fur ein 
Obertragsbit Die 1-Bit-Addierer 3 weisen daruberhin- 
aus einen Ausgang fur den Summanden und einen Aus- 
gang fur den Obertrag Oaus auf. 

In Fig. 11 ist die binare Logik eines 1-Bit-Addierers 
beziehungsweise eines SUBMACROS 3 nach Fig. 10 
dargestellt Analog zu Fig. 10 weist diese Schaltlogik je 
einen Eingang Aj, Bj fur die konjugierten Bits der zu 
verknupfenden Daten auf; ferner ist ein Eingang Uein 
fur den Obertrag vorgesehen. Diese Bits werden den 
dargestellten Verbindungen beziehungsweise Verkniip- 
fungen entsprechend in zwei ODER-Gliedern 5 und drei 
NAND-Gliedern 6 verkniipft, so daB am Ausgangsan- 
schluB Si und am Ausgang fur den Obertrag Oaus die 
einem Volladdierer entsprechenden Verknupfungser- 
gebnisse (Si, Oaus) anstehen. 



risch separiert, das letztlich als aus vier einem l-Bit-Ad- 
dierer entsprechend programmierten Zellen (10 gemaB 
Fig. 1 2) bestehende Untereinheit zu betrachten ist 

Das in Fig. 13 separierte SUBMACRO "X" ist in 
Fig. 1 als Teil eines integrierten Schaltkreises (Chip) 20 
gemeinsam mit Leitungs- und Datenanschlussen darge- 
stellt Das SUBMACRO "X" besteht aus den vier Zellen 
10 die entsprechend der orthogonalen Struktur je Seite 
vier Datenanschlusse (also insgesamt sechzehn Daten- 
10 anschlusse je Zelle) aufweisen. Die Datenanschlusse 
verbinden jeweils benachbarte Zellen, so daB ersichtlich 
wird, wie beispielsweise eine Dateneinheit von Zelle zu 
Zelle durchgeschleust wird Die Ansteuerung der Zellen 
10 erfolgt einerseits uber sogenannte lokale Steuerun- 
15 gen, das sind lokale Leitungen, die mit alien Zeilen ver- 
bunden sind, und andererseits uber sogenannte globale 
Leitungen, d h. Leitungen, die uber den gesamten inte- 
grierten Schaltkreis (Chip) 20 gefuhrt sind. 



In Fig. 2 ist ein vergroBerter Ausschnitt eines inte- 

Auf der Grundlage logisch und strukturell identischer 20 grierten Schaltkreises 20 dargestellt, der mit einem or- 

Zellen 10, deren einzelne logische Bausteine der auszu- thogonalen Raster von Zellen 10 belegt ist Wie in Fig. 2 

fuhrenden Verkniipfungsfunktion entsprechend ver- angedeutet kann so zum Beispiel eine Gruppe von vier 

schaltet werden, wird der 8-bit Addierer 2 in geeigneter Zellen 10 als SUBMACRO "X" ausgewahlt und dem 

Weise in die Zellstruktur implemehtiert Der Vorgang 1 -Bit- Addierer entsprechend Fig. 12 gemaB program - 

geschieht mittels der noch zu beschreibenden Ladelo- 25 miert beziehungsweise konfiguriert werden. 



gik. GemaB der in Fig. 12 gezeigten, von der Schaltlogik 
nach Fig. 1 1 abgeleiteten Verknupfungslogik fur einen 
1-Bit-Addierer sind je zwei Zellen 10.1, 10.2 beziiglich 
der logischen Bausteine insoweit gleich, daB jeweils ein 



Ein vollstandiger integrierter Schaltkreis gemaB dem 
beschriebenen Verfahren (DFP) 20 ist beispielsweise in 
Fig. 3 dargestellt Dieser integrierte Schaltkreis 20 be- 
steht aus einer Vielzahl im orthogonalen Raster ange- 



ODER-GHed 5 und ein NAND-GIied 6 aktiviert sind. 30 ordneter Zellen 10 und weist an seinen AuBenkanten 



Eine dritte Zelle 10.3 wird nur als Leitungszelle (Leiter- 
bahnzelle) benutzt und die vierte Zelle 10.4 ist beziiglich 
des dritten NAND-Gliedes 6 aktiv geschaltet Das aus 
den vier Zellen 10.1. . . . 10.4 bestehende SUBMACRO 2 



eine entsprechende Anzahl von Leitungsanschliissen 
(Pins) auf, uber die Signale, insbesondere Ansteuersi- 
gnale und Daten zugefiihrt und weitergeleitet werden 
konnen. In Fig. 3 ist wiederum das SUBMACRO "X w 



steht somit stellvertretend fur einen 1-Bit-Addierer, dh. 35 gemaB Fig. 13/Fig. 1 abgegrenzt; dariiberhinaus sind 



em 1-Bit-Addierer einer Datenverarbeitungseinrich- 
tung nach Art der vorliegenden Erfindung kann uber 
vier entsprechend programmierte (konfigurierte) Zellen 
10.1. ... 10.4 verifiziert werden. (Der Vollstandigkeit 
halber soil angemerkt werden, daB die einzelnen Zellen 
ein erheblich umfangreicheres Netzwerk von logischen 
Bausteinen, sprich Verknupfungsgliedern, und Invertern 
aufweist, die jeweils dem aktuellen Befehl der Ladelogik 
zufolge aktiv geschaltet werden konnen. Neben den lo- 
gischen Bausteinen ist auch ein dichtes Netz von Ver- 
bindungsleitungen zwischen den jeweils benachbarten 
Bausteinen und zum Aufbau von zeilen- und spaltenwei- 
sen Busstrukturen zur Datenubertragung andererseits 
vorgesehen, so daB uber eine entsprechende Program- 



auch weitere SUBMACROS separiert, die spezifischen 
Funktionen und Vernetzungen entsprechend zu Unte- 
reinheiten zusammengefaBt sind Dem integrierten 
Schaltkreis (Chip) 20 ist eine Ladelogik 30 zugeordnet 
40 beziehungsweise iibergeordnet, uber die der integrierte 
Schaltkreis 20 programmiert und konfiguriert wird. Die 
Ladelogik 30 teilt letztlich dem integrierten Schaltkreis 
20 mit, wie er arithmetisch-logisch zu arbeiten hat 
Ann and von Fig. 14 beziehungsweise Fig. 15 soli im 
45 folgenden eine Rechnerstruktur beschrieben werden, 
die auf den im vorstehenden definierten und erlauterten 
integrierten Schaltkreis 20 aufbaut 

GemaB dem in Fig. 14 dargestellten ersten Ausfiih- 
rungsbeispiel ist — analog zur Anordnung der Zellen 



mierung seitens der Ladelogik quasi beliebige logische 50 im Orthogonalraster eine Mehrzahl von integrierten 



Verknupfungsstrukturen implementiert werden kon- 
nen). 

Der Vollstandigkeit halber ist in Fig. 13 der Zellen- 
aufbau eines 8-Bit-Addierers in seiner Gesamtheit dar- 
gestellt Die in Fig. 13 gezeigte Struktur entspricht inso- 
weit der nach Fig. 10, wobei die in Fig. 10 symbolisch als 
SUBMACROS 3 dargestellten 1-Bit-Addierer jeweils 

durch eine vier-zellige Einheit 10.1 10.4 ersetzt sind. 

Bezogen auf einen DatenfluBprozessor gemaB des be- 
schriebenen Verfahrens bedeutet dies, daB zweiunddrei- 
Big Zellen der zur Verfugung stehenden Gesamtheit 
von Zellen einer zellular mit logisch identischem Layout 
gefertigten Schaltungsplatine seitens der Ladelogik so 
angesteuert und konfiguriert beziehungsweise pro- 



SchaJtkreisen 20 angeordnet, deren jeweils benachbarte 
uber lokale BUS-Leitungen 21 miteinander gekoppelt 
beziehungsweise vernetzt sind. Die — beispielsweise 
aus sechzehn integrierten Schaltkreisen 20 bestehende 
55 — Rechnerstruktur weist Ein-/Ausgangsieitungen IO 
auf, uber die der Rechner quasi mit der AuBenwelt in 
Verbindung steht, d. h. korrespondiert. Der Rechner ge- 
maB Fig. 14 weist ferner einen Speicher 22 auf, der dem 
dargestellten Ausfuhrungsbeispiel entsprechend aus 
60 zwei separierten Speichern, zusammengesetzt aus je- 
weils RAM, ROM sowie einem Dual-Ported RAM als 
shared memory zu der Ladelogik geschaltet, besteht, die 
gleichermaBen als Schreib-Lese-Speicher oder auch nur 



als Lese-Speicher realisiert sein konnen. Der soweit be- 
grammiert werden, daB diese zweiunddreiBig Zellen ein 55 schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 
8-Bit-Addierer bildea beziehungsweise iibergeordnet, mittels der die inte- 

In der Darstellung nach Fig. 13 ist uber eine strich- grierten Schaltkreise (DatenfluBprozessor) 20 program- 
punktierte Umrahmung ein SUBMACRO "X" zeichne- miert und konfiguriert und vernetzt werden. 
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Die Ladelogik 30 bam beispielsweise auf einem 
Transputer 31, d h. einem Prozessor mit mikrocodier- 
tem Befehlssatz auf, dem seinerseits ein Speicher 32 
zugeordnet ist. Die Verbindung zwischen dem Transpu- 
ter 31 und dem DatenfluBprozessor basiert auf einer 
Schnittstelle 33 fur die sogenannten Ladedaten, d. h. die 
Daten die den DatenfluBprozessor aufgabenspezifisch 
programmieren und konfigurieren und einer Schnitt- 
stelle 34 fur den bereits genannten Rechnerspeicher 22, 
d. h. den Shared-Memory-Speicher. 

Die in Fig. 14 dargestelite Stmktur stellt so einen 
kompletten Rechner dar, der uber die Ladelogik 30 je- 
weils fall* beziehungsweise aufgabenspezifisch pro- 
grammiert und konfiguriert werden kann. Der Vollstan- 
digkeit halber sei noch angemerkt, daB — wie in Verbin- 
dung mit der Ladelogik 30 uber Pfeile angedeutet — 
mehrere dieser Rechner vernetzt, d. h. miteinander ge- 
koppelt werden konnen. 

Ein weiteres Ausfuhrungsbeispiel einer Rechner- 
struktur ist in Fig. 15 dargestellt Im Unterschied zu 
Fig. 14 sind dabei neben den lokalen BUS-Leitungen 
zwischen den benachbarten integrierten Schaltkreisen 
20 noch ubergeordnete zentrale BUS-Leitungen 23 vor- 
gesehen, um zum Beispiel spezifische Ein- beziehungs- 
weise Ausgangsprobleme losen zu konnen. Auch der 
Speicher 22 (Shared- Memory) ist uber zentrale BUS- 
Leitungen 23 mit den integrierten Schaltkreisen 20 ver- 
bunden, und zwar wie dargestellt jeweils mit Gruppen 
dieser integrierten Schaltkreise. Die in Fig. 15 darge- 
stelite Rechnerstruktur weist die gleiche Ladelogik 30 
auf, wie sie anhand von Fig. 14 erlautert wurde. 

In Verbindung mit Fig. 20a soil eine aus erfindungsge- 
maBen DatenfluBprozessoren aufgebaute Additions- 
schaltung erlautert werden. Ausgegangen wird von zwei 
Zahlenreihen A n und B n fur samtliche n zwischen 0 und 
9; die Aufgabe besteht darin, die Summe C\ = Aj + Bi 
zu bilden, wobei der Index i die Werte 0 <= n < 9 
annehmen kann. 

Bezugnehmend auf die Darstellung nach Fig. 20a ist 
die Zahlenreihe A n in einem ersten Speicher RAMI 
abgespeichert und zwar zum Beispiel ab einer Speicher- 
adresse 1000 h; die Zahlenreihe B n ist in einem Speicher 
RAM2 an einer Speicheradresse OdfaOh abgespeichert; 
die Summe C n wird in den RAMI eingeschrieben und 
zwar unter der Adresse 100 ah. 

Es ist ein weiterer Zahler 49 zugeschaltet, der ledig- 
lich die einzelnen durch die Steuerschaltung freigegebe- 
nen Taktzyklen hochzahlt Dies soil im Weiteren zur 
Verdeutlichung der Umkonfigurierbarkeit einzelner 
MACROs ohne Beeinflussung der an der Umkonfigurie- 
rung nicht beteiligten MACROs dienen. 

Fig. 20a zeigt zunachst die eigentliche Additions- 
schaltung 40, die aus einem ersten Register 41 zur Auf- 
nahme der Zahlenreihe A n und einem zweiten Register 
42 zur Aufnahme der Zahlenreihe Bn besteht Den bei- 
den Registern 41/42 ist ein 8-Bit-Addierer entsprechend 
dem in Fig. 9 dargestellten MACRO 1 nachgeschaltet 
Der Ausgang des MACRO 1 fuhrt Qber eine Treiber- 
schaltung 43 zuriick zum Speicher RAMI. Die Takt- 
beziehungsweise Zeitsteuerung der Additionsschaltung 
40 erfolgt uber eine von einem Taktgenerator T ange- 
steuerte Zustandsmaschine (STATEMACHINE) 45, die 
mit den Registern 41, 42 und der Treiberschaltung 43 
verbunden ist 

Die Additionsschaltung 40 wird functional durch eine 
AdreBschaltung 46 zur Generierung der AdreBdaten fQr 
die abzuspeichernden Additionsergebnisse erganzt Die 
AdreBschaltung 46 besteht ihrerseits aus drei MACROs 
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1 (gemaB Fig. 9) zur Bildung der AdreBdaten, wobei 
diese MACROs 1 wie folgt geschaltet sind: Ober jeweils 
einen Eingang werden die zu verknupfenden Adressen 
fur An, B n , C n zugefuhrt Diese Adressen werden mit den 
5 Ausgangssignalen eines Zahlers 47 addiert und mit der 
Statemachine 45 so verknupft, daB am Ausgang die neue 
Zieladresse ansteht Der ZaVhler 47 und der Komparator 
48 haben dabei die Aufgabe sicherzustellen, daB jeweils 
die richtigen Summanden verknupft werden und daB 

io jeweils am Ende der Zahlenreihen, d h. bei n =* 9 abge- 
brochen wird. Ist die Addition vollendet, so wird in der 
Zustandsmaschine 45 ein STOP-Signal generiert und die 
Schaltung passiv geschaltet Ebenso kann das STOP-Si- 
gnal als Eingangssignal fur eine Synchronisations-Schal- 

15 tung verwenden werden, indem die Synch ronisationslo- 
gik anhand dieses Signals erkennen kann, daB die Ge- 
samtfunktion "Addieren" gemaB dem nachfolgend be- 
schriebenen ML1 Programm beendet ist und die MA- 
CROs somit durch Neue ersetzt werden konnen (zum 

20 Beispiel konnte STOP das Signal SyncS sein). 

Der Zeitablauf in der 45 (STATEMACHINE) lift 
sich dabei wie folgt darstellen, wobei noch anzumerken 
ist, daB in der Zustandsmaschine 45 eine Verzogerungs- 
zeit T (in Form von Taktzyklen) zwischen der AdreBge- 

25 nerierung und dem Datenerhalt implementiert ist: 

— Im ZykJus 1 wird jeweils der Zahler 47 um 1 
erhoht und im Komparator 48 wird gepruft, ob n > 
9 erreicht ist; synchron zu diesen Operationen wer- 

30 den die Adressen fur A, B, C berechnet; 

— im Zyklus (T + 1) werden die Summanden A, B 
ausgelesen und addiert; 

— im Zyklus (T + 2) wird die Summe C abgespei- 
chert 

35 

Mit anderen Worten heiSt dies, daB die Operations- 

schleife und die eigentliche Addition gerade (T + 2) 

Taktzyklen erfordert Im allgemeinen sind fur T 2. . 3 

Takte erforderlich, so daB verglichen mit den herkomm- 
40 lichen Prozessoren (CPU), die im allgemeinen 50 bis 

mehrere 100 Taktzyklen bedingen, eine ganz wesentli- 

che Rechenzeit-Reduzierung moglich wird- 
Die anhand von Fig- 20 aufgezeigte Konfiguration 

soil im folgenden uber eine hypothetische MACRO- 
45 Sprache ML1 nochmals erlautert werden: 

Es existieren die Zahlenreihen A n und B n 
n:0 <= n < = 9 

Es sollen die Summen Q = Ai + Bi mit i € N gebildet 

werden. 
50 const n = 9; 

array A[n] in RAM[1 at 1000 h; 

array B[n] in RAM[2] at OdfaOh; 

array C[n] in RAM[1] at lOOah; 

for i « 0 to n with (A[iJ B[iJ C[i]) 
55 Al; 

C = A1 = A + B; 

next; 

RAM[1] ist der l.Speicherblock 
RAM[2] ist der 2. Speicherblock 
60 at folgt die Basisadresse der Arrays 
for ist der Schleifenbeginn 
next ist das Schleifenende 

with ( ) folgen die Variablen, deren Adressen durch die 
Zahlvariable i bestimmt werden 
65 T folgt die Verzogerungszeit fur eine Statemachine in 
Taktzyklen 

Das Timing der Zustandsmaschine (Statemachine) sieht 
demnach foIgendermaBen aus: 
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Zyklus Aktivitat 

1 Zahler erhohen, Vergleich auf > 9 G a Abbruch) 
und 

Adressen fur A, B, Q berechnen 
T + 1 A, B, holen und addieren 
T + 2NachCspeichern 

Das heiBt — wie bereits erwahnt — die Schleife und die 
Addition bendtigen gerade einmal T -f 2 Taktzyklen. 

Fig. 20b zeigt den groben Aufbau der einzelnen 
Funktionen (MACROs) in einem erfindungsgemaBen 
DFP. Die MACROs sind in ihrer etwaigen Lage und 
GroBe eingezeichnet und mit den anhand von Fig. 20a 
erlauterten entsprechenden Nummern versehen. 

Fig. 20c zeigt den groben Aufbau der einzelnen Funk- 
tionen auf die RAM-BI6cke 1 und 2: Die Summanden 
werden nacheinander in aufsteigender Reihenfolge aus 
den RAM-Blocken 1 und 2 ab Adresse lOOOh bezie- 
hungsweise OdfaOh gelesen und in RAM-Block 1 ab 
Adresse lOOah gespeichert Zudem sind die Zahler 47 
und 49 gegeben, beide zahlen wahrend des Ablaufs der 
Schaltung von 0 bis 9. 

Nach Beendigung des beschriebenen Programms soli 
ein neues Programm geladen werden, das die Ergebnis- 
se weiterverwertet Die Umladung soil zur Laufzeit er- 
folgen. Das Programm ist im Folgenden gegeben: 

Es existieren die Zahlenreihen A n und Bn, wobei A n 
durch das Ergebnis C n des vorher ausgefuhrten Pro- 
gramms gegeben ist: 

n:0<= n < = 9 
Es sollen die Produkte G = Ai x Bj mit i e N gebildet 
werden. 
const n = 9 

array A[n] in RAM[1] at lOOah 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at 1015 h 
for i = 0 to n with (A0J B[i], C[i]) 
Al; 

C - Al - AxB; 
next. 

Die Beschreibung der einzelnen Befehle ist bereits 
bekannt, x symboiisiert die Multiplikation. 

Die MACRO-Struktur ist in Fig. 21a beschrieben, 
Fig. 21b gibt in bekannter Weise die Lage und GroBe 
der einzelnen MACROs auf dem Chip an, besonders zu 
beachten ist die GroBe des Multiplizierers 2 in Vergleich 
zu Addierer 1 aus Fig. 20b. In Fig. 21c ist erneut die 
Auswirkung der Funktion auf den Speicher aufgezeigt, 
Zahler 47 zahlt erneut von 0 bis 9, d h. er wird beim 
Nachladen der MACROs zurflckgesetzt 

Besonders zu beachten ist der Zahler 49. Angenom- 
men, das Umladen der MACROs betragt 10 Taktzyklen. 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein 
dynamisch umgeladen wird, & h. nur die umzuladenden 
Teile werden gestoppt, der Rest arbeitet weiter. Das 
fQhrt nun dazu, daB der 21ahler wahrend des Programm- 
abiaufs von 19 auf 29 hochlauft (Hiermit soil das dyna- 
mische unabhangige Umladen demonstriert werden, in 
jedem bisher bekannten Baustein wurde der Zahler er- 
neut von 0 auf 9 lauf en, da er zurflckgesetzt wird). 

Bei naherer Betrachtung des Problems stellt sich die 
Frage, warum nicht beide Operationen, die Addition 
und die Multiplikation in einem Zyklus durchgefiihrt 
werden, also die Operation: 

Es existieren die Zahlenreihen A n und Bn, wobei A n 
durch das Ergebnis von C n des vorher ausgefuhrten 
Programms gegeben ist: 

n:0 n < = 9 
Es sollen die Produkte Q » (Ai + Bi)xB,* mit i e N 
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gebildet werden. 
path D; 
const n = 9; 

array Afn] in RAM[1] at 1000 h 
5 array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
for i = 0 to n with ( A[i J Bp J C[i]) 
Al; 

D = A1 = A + B; 
10 C = Al = D x B; 
next; 

path D definiert einen internen nicht aus den DFP 
herausgefuhrten Doppelpfad. Die Operation bendtigt 
wegen einem zusatzlichen Al einen Taktzyklus mehr als 
15 vorher, ist insgesamt jedoch schneller als die beiden 
obigen Programme in Folge ausgefuhrt, da zum einen 
die Schleife nur einmal durchlaufen wird, zum zweiten 
nicht umgeladen wird 
Prinzipiell konnte das Programm auch so formuliert 
20 werden: 
const n = 9; 

array A[n] in RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
25 for i = 0 to n with (A[iJ BpJ C[i]) 
Al; 

C = A2-(A + B)xB; 
next; 

Sind die Gatterlaufzeiten des Addierers und des Mul- 
30 tiplizierers zusammen kleiner als ein Taktzyklus, kann 
die Operation (A-l-B)xB auch in einem Taktzyklus 
durchgefuhrt werden, was zu einer weiteren erhebli- 
chen Geschwindigkeitssteigerung fuhrt: 
const n = 9; 
35 array A[n] in RAM[1] at 1000 h 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
f or i - 0 to n with (A[iJ B[iJ C[i]) 
Al; 

40 C = Al =(A + B)xB; 
next; 

Anhand von Fig. 8 soli ein einfaches Beispiel eines 
Zellenaufbaus erlautert werden. Die Zelle 10 umfaBt 
zum Beispiel ein UND-GIied 51, ein ODER-GIied 52, ein 
45 XOR-Glied 53, einen Inverter 54 sowie eine Register- 
zelle 55. Die Zelle 10 weist daruberhinaus eingangsseiug 
zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 
der Zelle entsprechend Fig. 1) zum Beispiel je sechzehn 
Eingangsanschlussen INI, IN2 auf. Ober diesen 
so (16 : 1)-Multiplexer 56/57 werden jeweils die den ge- 
nannten Iogischen Gliedern UND, ODER, XOR 51. . 53 
zuzufuhrenden Daten ausgewahlt Diese Iogischen Glie- 
der sind ausgangsseitig mit einem (3 : 1)-Multiplexer 58 
gekoppelt, der seinerseits mit dem Eingang des Inver- 
55 ters 54, einem Eingang der Registerzelle 55 und einem 
weiteren (3 : 16)- Multiplexer 59 gekoppelt ist Der letzt- 
genannte Multiplexer 59 ist zusatzlich mit dem Ausgang 
des Inverters 54 und einem Ausgang der Registerzelle 
55 verbunden und gibt das Ausgangssignal OUT ab. 
60 Der Vollstandigkeit halber sei angemerkt, daB die Re- 
gisterzeUe 55 mit einem Reset-Eingang R und einem 
Takteingang gekoppelt ist 

Dem im vorstehenden erlauterten Zellenaufbau, d. h. 
der Zelle 10 ist nun eine Ladelogik 30 ubergeordnet, die 
65 mit den Multiplexern 56, 57, 58 und 59 verbunden ist und 
diese den gewunschten Funktionen entsprechend an- 
steuert 

Sollen zum Beispiel die Signale A2 mit B5 verrundet 
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werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEF beziehungsweise TONF" entsprechend aktiv 
geschaltet; die Summanden gelangen dann zum UND- 
Glied 51 und werden bei entsprechender Aktivierung 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 5 
Soil zum Beispiel eine NAND-Verknupfung durchge- 
fuhrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT steht dann das negierte 
UND-Ergebnis an. 

10 

Patentanspruche 

1. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung mit programmier- und konfigu- 
rierbarer Zellstruktur, wobei die Datenverarbei- 15 
tungseinrichtung eine Zellmatrix aus einer VielzahJ 
orthogonal zueinander angeordneter, homogen 
strukturierter Zellen, welche in ihrer Funktion und 
Vernetzung durch eine Ladelogik frei program- 
mierbar sind, enthalt, dadurch gekennzeichnet, 20 
daB 

a) ein Konfigurationsprogramm, bestehend 
aus einer Folge von Ladelogik-Befehlen, die 
jeweils die Funktion und Vernetzung der ein- 
zelnen Zellen angeben, so daB sich aus einer 25 
Teil folge eine spezielle Konfiguration mit spe- 
zieller(en) Anwendung(en) ergibt, vorhanden 
ist, auf das die Ladelogik (30) Zugriff hat 
(Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefuhrt wird, 30 

b) zunachst durch eine bestimmte Anzahl von 
Ladelogik-Befehlen eine Konfiguration 
(Fig. 20b) mit spezieller(en) Anwendung(en), 
mittels der Ladelogik (30) zu Beginn als Start- 
konfiguration in der Zell-Matrix (Fig. 2, Fig. 3) 35 
eingestellt wird, 

c) durch eine Statemachine (45) oder einen 
Komparator (48) die Beendigung der Durch- 
fiihrung einer Anwendung einer oder mehre- 
rer Zellen erkannt wird, 40 

d) durch die Erkennung eine Ruckmeldung an 
die Ladelogik (30) erfolgt, die die Programm- 
abarbeitung des Konflgurationsprogramms 
mit einer anderen Teilfolge (Fig. 21b, Fig. 22b) 
fortsetzt, welche nur Zellen umkonfiguriert, al- 45 
so neu erstellt, die die Durchfuhrung ihrer 
Funktion fur die aktuelle Anwendung bereits 
beendet haben oder nicht benotigt werden, so 
daB die Abarbeitung der Datenstrdme der an 
der aktuellen Konfiguration noch beteiligten, 50 
parallel (z. B. Register 41, 42) oder gepipelined 

(z. B. Fig. 22a, Summierer 141 und Multiplizie- 
rer 149) arbeitenden Zellen, die sich noch in 
der Durchfuhrung ihrer Anwendung befinden, 
nicht gestdrt wird. 55 

2. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach Anspruch 1, dadurch ge- 
kennzeichnet, daB durch eine Priorisierungs-Logik 
(z. B. Fig. 19) das Umkonfigurieren der unabhangi- 
gen parallel oder gepipelined arbeitenden Zellen, 60 
einer Funktion oder Konfiguration in der optima- 
len richtigen Reihenfolge uber eine Rflckmeldung 
an die Ladelogik sicherstellt wird. 

3. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der Ansprfiche 1 oder 65 
2, dadurch gekennzeichnet, daB die Operanden aus 
mehreren, beliebig vielen unabhangig adressierten 
und gesteuerten Speichern (Fig. 20a, Fig. 20c; 



RAMI, RAM2) bezogen werden und das Ergebnis 
in einen dieser Speicher (Fig. 20a, Fig. 20c; RAMI) 
oder einen davon unabhangigen oder eine separa- 
ten Datenkanal (Fig. 14, Fig. 15; IO) ausgegeben 
wird. 

4. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der Anspruche 1 bis 3, 
dadurch gekennzeichnet, daB zur besseren Ausla- 
stung der Vernetzung von Zellen, Busse mit Hilfe 
von zwischengeschalteten Schaltern (Fig. 18; Trei- 
ber) Verwendung finden, so daB Busse in unabhan- 
gige Abschnitte aufgeteilt werden konnen. 
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